using IronWord; using System.Linq; using System; // Load docx WordDocument doc = new WordDocument("multi-paragraph.docx"); // Returns text from the entire file Console.WriteLine(doc.ExtractText()); // Returns text from the first paragraph only Console.WriteLine(doc.Paragraphs[0].ExtractText()); // Returns text from the last paragraph only Console.WriteLine(doc.Paragraphs.Last().ExtractText());

Imports IronWord Imports System.Linq Imports System ' Load docx Private doc As New WordDocument("multi-paragraph.docx") ' Returns text from the entire file Console.WriteLine(doc.ExtractText()) ' Returns text from the first paragraph only Console.WriteLine(doc.Paragraphs(0).ExtractText()) ' Returns text from the last paragraph only Console.WriteLine(doc.Paragraphs.Last().ExtractText())

텍스트 추출

문서에서 대량의 텍스트를 추출할 때, 특히 표와 많은 양의 단락을 처리할 때, 이 과정은 비효율적이고 시간이 많이 걸릴 수 있습니다. 그러나 IronWord의 ExtractText 메서드는 시간을 절약하는 솔루션입니다. 이는 개발자가 문서 내 특정 수량의 텍스트를 쉽게 추출할 수 있도록 하여 추가적인 반복문이 필요 없고 Text 속성에 대한 접근이 간단해집니다. 이 방법을 사용하면 개발자는 효율적으로 작업하고 귀중한 시간을 절약할 수 있습니다.

이 예제에서는 문서에서 텍스트를 추출할 때 ExtractText 메서드를 사용하는 여러 가지 방법을 보여주고 효율성을 높일 것입니다.

Docx 파일에서 텍스트를 추출하는 유용한 방법

using IronWord;
WordDocument doc = new WordDocument("multi-paragraph.docx");
Console.WriteLine(doc.ExtractText());
Console.WriteLine(doc.Paragraphs[0].ExtractText());
Console.WriteLine(doc.Paragraphs.Last().ExtractText());

텍스트 추출

IronWord 라이브러리를 사용하면 Word 문서에서 텍스트를 추출하는 과정이 매우 간단합니다. 우리는 라이브러리를 가져오고 WordDocument 클래스를 초기화하는 것으로 시작합니다. 이 단계는 단락이 있는 기존 문서를 로드할 수 있게 합니다. 그런 다음 문서의 전체 텍스트를 콘솔에 출력하기 위해 ExtractText 메서드를 호출합니다.

특정 텍스트 추출

위 예시에서는 문서 전체의 텍스트를 추출했지만, IronWord 라이브러리를 사용하면 추출 과정을 완벽하게 제어할 수 있습니다. 특정 부분이나 단락만 원할 경우 Paragraphs 속성을 WordDocument에서 사용하여 Paragraphs의 배열을 반환할 수 있습니다. 일반 리스트로서, 이 배열은 doc.Paragraphs[0]를 사용해 위 설명된 것처럼 인덱스를 호출하거나 C# 컬렉션에 대한 내장 배열 메서드를 사용하여 요구사항에 따라 조작할 수 있습니다.

우리는 Paragraphs의 인덱스에 접근할 때, 문서의 첫 번째 단락에서만 텍스트를 반환하고 추출하여 콘솔에 출력합니다. 이후, Paragraphs 배열의 텍스트를 반환하고 문서에서 마지막 단락의 텍스트만 추출하기 위해 Last를 호출합니다.

고급 텍스트 추출을 위한 IronWord API를 살펴보세요